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摘要 自从 互联 网 提出 以 来 ， 
题 。 从 保证 电子 选举 公平 性 


用 。 随 着 匿名 网 络 的 提出 ， 


随 着 匿名 对 抗 技术 的 不 断 升 
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网 络 的 匿名 性 一 直 是 一 个 公众 关注 的 重要 议 


到 保护 用 户 隐 私 ， 匿 名 性 起 着 越 来 越 重 要 的 作 


对 于 公众 而 言 ， 匿 名 性 得 到 了 一 定 的 保障 。 但 


级 ， 匿 名 性 也 逐渐 和 


EER AUE Z E 


及 其 保障 与 对 抗 技术 为 主线 ， 综 述 了 匿名 网 络 及 其 对 抗 技术 的 发 展 。 文 章 


主要 以 网 站 指纹 技术 的 发 展 论 述 人 工 智 能 技术 在 匿名 网 络 中 的 应 用 。 


REF ELNA, ATH 


1. 背景 


A Tor, 网 站 指纹 


匿名 性 一 直 是 网 络 用 户 的 追求 之 一 。 生 活 中 有 很 多 对 匿名 性 有 很 大 需求 的 实际 


应 用 场景 ， 如 电子 选举 、 机 要 通信 等 。 随 着 互联 网 的 发 展 与 普及 ， 互 联网 用 户 
的 隐私 意识 逐渐 增强 ， 用 户 的 隐私 问题 也 受到 


I 越 来 越 多 的 重视 ， 匿 名 网 络 随 之 


得 到 进一步 的 发 展 。 而 自从 匿名 网 络 提出 以 来 , 针对 匿名 网 络 的 分 析 、 构造 和 攻 
击 绵延 不 绝 。 研 究 人 员 分 析 并 构造 许多 匿名 网 络 ， 而 攻击 者 也 逐渐 对 各 匿名 网 络 


系统 进行 分 析 和 破解 ， 攻 防 的 博弈 战 在 


上 世纪 80 年 代 已 经 有 一 些 学 者 在 匿名 和 隐私 方 


的 角度 提出 了 基于 节点 混淆 Mix) 的 
恩 传送 给 接收 者 ， 以 达到 电子 邮件 不 可 追溯 


匿名 网 络 领域 拉 开 。 


看 做 了 研究 。[J] 率 先 从 密码 学 


匿名 通信 方式 ， 通 过 混合 多 个 发 送 者 的 消 
的 问题 。A. Pfitzmann 等 2] 结合 匿名 


网 络 的 特性 ， 审 视 匿 名 网 络 的 结构 ， 给 出 了 匿名 性 (Anonymity) 的 分 类 和 定义 。 


从 2000 年 开始 ，A. Pfitzmann 等 


a 


包括 匿名 性 (Anonymity) 、 


+ 
结合 


型 上 ,给 出 了 通信 系统 的 一 系列 隐私 与 


有 关 隐 私 问题 的 研究 ， 在 一 般 的 通信 系统 模 
匿名 的 相关 术语 及 定义 , 并 维护 至 2010 年 ， 
不 可 链接 性 (Unlinkability ) 、 


不 可 检测 性 


(Undetectability〉、 不 可 观测 性 (Unobservability〉、 假 名 性 (Pseudonymity) 、 


可 鉴别 性 Cdentifiability) 和 身份 管理 


E (Identity Management) 等 [3] 。 


chinaXiv:202305.00277v1 


对 匿名 性 进行 评估 的 工作 有 很 多 。1999 年 ，Michael K. Reiter 等 [4] 做 出 了 匿名 
性 的 量化 工作 , 他 们 把 匿名 性 的 等 级 定义 为 1 - p， 其 中 p 是 攻击 者 给 出 的 和 当 
前 用 户 相 关 的 概率 值 。O. Berthold 等 [5] 和 C. Diaz 等 [6] 从 信息 论 的 角度 分 别 给 出 


了 匿名 性 的 量化 标准 。M. Edman 等 [7] 提 出 了 用 二 分 图 的 方法 来 量化 匿名 性 。 在 


Re 


统 是 否 


性 测量 方面 ，M. Bhargava 等 [8] 和 J. Halpern 等 [9] 分 别 从 概率 的 角度 判断 通信 系 
E, M. Backes*$[10] M2 


日 合 定理 的 角度 评估 Tor 的 路 径 选 择 的 匿名 性 。 


包括 匿名 性 在 内 ，Wang 等 [11] 从 ) 
性 〈Anti-traceability ) 、 抗 封锁 性 〈Anti-blockade ) 、 抗 监听 性 ( Anti- 
eavesdropping) 、 健 壮 性 (Robustness) 和 可 用 性 (Usability) 的 评估 方法 。 


i 


a 
a 


人 员 提 出 了 更 
， 介 绍 了 流量 分 析 方 法 的 协议 、 


述 


] 户 和 开发 者 的 角度 , 提出 了 对 匿名 网 络 的 反 追 


在 保障 匿名 性 的 过 程 中 ， 研 究 人 员 提 出 了 一 系列 的 方法 。 最 初 阶段 ， 为 了 防 
止 对 流量 进行 的 窃听 ， 提 出 了 对 数据 进行 加 密 的 方法 ， 如 使 用 SSL 协 议 进行 通 
。 但 研究 人 员 很 快 提出 了 对 抗 措 施 。Mistry[12] 和 Cheng[13] 等 人 率先 指出 攻 
击 者 可 以 通过 对 加 密 流量 的 分 析 来 确定 请 求 的 网 站 URL。 他 们 认为 ， 对 特定 的 


网 站 ， 传 输 的 数据 流 具 有 明显 的 特征 ， 并 能 用 以 识别 URL。 不 过 , 这 些 早期 研究 


基于 HTTP/1.0， 随 着 HTTP/1.1 的 提出 [14]， 这 类 攻击 已 经 不 再 奏效 。 随 后 ， 研 究 
了 效 的 流量 分 析 技术 。2001 年 ，Raymond[15] 对 流量 分 析 进 行 了 综 


攻击 和 设计 等 。 攻 击 者 可 以 通过 监听 加 密 流 量 


获取 到 关于 传输 内 容 和 传送 方 的 信息 。Bissias 等 [16] 是 第 一 批 根 据 也 数据 包 的 大 


小 


、 到 达 时 间 来 进行 此 类 攻击 的 。 


他 们 在 Open SSH 信 道 到 代理 服务 器 见 部 署 实 


验 设 备 ， 计 算 共 计 100 个 网 站 的 数据 ， 得 到 了 检测 率 为 20% 的 结果 。 与 此 同时 ， 
Hintz[17] 和 Sun[18] 等 人 提出 了 网 站 指纹 (Website Fingerprinting) 的 方法 。 他 们 
认为 ， 如 果 攻 击 者 利用 一 个 事先 构造 好 的 “指纹 库 ?， 通 过 对 传输 数据 包 大 小 的 


分 布 进行 分 析 ， 能 识别 指定 


如 


对 单 力 


Tor[19]、 
AUTH 
通过 遍布 全 球 的 几 千 个 节点 [21]， 
[ 密 信道 机 进行 攻击 ， 未 考虑 Mix 或 洋葱 路 由 网 络 ， 故 以 上 方法 在 这 里 并 


的 网 站 。Hintz 指 出 ， 这 种 攻击 仅 局 限于 小 规模 的 网 
站 ， 而 Sun 对 10 万 个 网 站 进行 指纹 识别 ， 也 能 达到 75% 的 识别 正确 率 。 


此 外 ， 随 着 对 匿名 需求 的 增加 ， 研 究 人 员 提 出 了 不 同 于 寻常 网 络 的 网 络 结构 ， 


JAP[20] 等 多 跳 通信 系统 (Multi-hop communication system) 。Tor 通 
F 获 的 结构 ， 通 过 至 少 三 跳 ( 三 层 加 密 ) ,保护 传输 数据 的 安全 性 ， 并 


不 适 ) 


来 实现 对 访问 者 身份 的 保护 。 上 述 工作 中 仅 针 


j。 不 过 ， 随 着 技术 的 发 展 ， 研 究 人 员 也 将 注意 力 转移 到 Tor 中 ， 在 针对 


Tor 的 流量 分 析 的 研究 上 取得 了 一 定 的 成 果 。Murdoch 等 [22]、Abbott 等 [23]、 
Bauer 等 [24] 对 Mix 网 络 和 洋葱 网 络 进行 了 流量 分 析 ， 取 得 了 一 定 的 成 果 。 
与 此 同时 ， 统 计 学 习 和 人 工 智能 的 发 展 也 为 流量 分 析 和 网 站 指纹 带 来 了 新 的 


A 


完 方 向 。 研 究 人 员 把 机 器 学 习 方法 应 用 到 网 站 指纹 的 领域 中 ， 得 到 了 较 好 的 


效果 。 与 之 前 使 


相关 系数 的 工作 不 同 ，Liberatore 等 [25] 采 用 了 Jaccard 系 数 和 
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朴素 贝 叶 斯 分 类 器 (Naive Bayes Classifier, NBX) 进行 流量 分 析 ， 在 
OpenSSH 信道 中 能 从 加 密 流量 中 得 到 特征 模式 ， 并 达到 了 73% 的 准确 率 ([16] 中 


仅 为 20%) 。 统 计 学 习 的 方法 在 此 领域 的 效果 促使 了 研究 人 员 的 跟 进 。 


2. 应 用 


D. Herrmann 等 [26] 采 用 
Classifier, MNB 分 类 器 ) 进行 网 站 指纹 攻击 。 这 篇 文章 可 以 说 是 针对 Tor 等 匿 


了 多 项 式 朴 素 贝 叶 斯 分 类 器 〈Multinomial Naive-Bayes 


ie 


名 网 络 进行 网 站 指纹 的 “始祖 >?。 作 者 调研 识别 了 包括 Open SSH. Open VPN, 


Stunnel、 思科 IP-Sec VPN 和 Tor. JAP 环境 下 的 775 个 网 站 ， 并 应 用 了 


Jaccard REL. FPA ILA 


斯 分 类 器 和 MNB 分 类 器 进行 训练 和 识别 。 对 于 Open 


SSH, Open VPN 这 类 单 跳 系统 ， 作 者 的 识别 率 能 达到 90% 以 上 ; 而 对 于 Tor 


和 JAP 这 种 多 跳 网 络 ， 


Jaccard 系 数 是 一 种 集合 间 相 似 度 度量 的 方法 ， 常 用 于 非 监 督学 习 的 任务 中 ， 


识别 率 较 低 ， 分 别 为 JAP 的 19.97% 和 Tor 的 2.96%。 


也 可 用 于 分 类 问题 。 在 作者 进行 研究 之 前 ，Jaccard 系 数 已 在 [25] 中 对 单 跳 系统 
的 网 站 指纹 取得 了 较 好 的 效果 。NB 分 类 器 广泛 用 于 监督 学 习 中 ， 并 假设 集合 的 


=i 


各 属性 之 间 相 互 独立 。 尽 管 在 实际 情况 中 ， 此 假设 往往 是 不 成 立 的 ， 但 NB 方法 


还 是 在 分 类 任务 中 取得 了 较 大 的 成 功 。 作 者 在 这 里 对 训练 数据 采用 高 斯 核 密 度 
估计 ， 在 实际 应 用 中 较为 有 效 的 同时 ， 也 带 来 了 巨大 的 计算 量 。MNB 分 类 是 数 


着 较为 成 功 的 应 用 。NB 


据 挖掘 领域 的 一 个 经 典 方 法 ， 在 半自动 化 的 分 类 任务 如 垃圾 邮件 识别 等 方面 有 


分 类 器 用 高 斯 核 估计 类 别 的 概率 ， 并 选择 可 能 概率 最 大 


的 分 类 ， 而 MNB 分 类 器 根据 所 有 数据 包 大 小 的 分 布 来 进行 选择 。 作 者 收集 了 数 


据 包 的 大 小 、 方 向 、 速 度 等 ， 并 统计 了 TF-IDF， 进 行 余弦 归 一 化 。 作 者 的 结论 
显示 ， 对 单 跳 系统 ， 对 数据 进行 TF 转换 和 余弦 归 一 后 的 效果 最 好 ， 能 达到 


94.94%-97.64% 不 等 的 准 


确 率 ， 对 多 跳 网 络 (Tor 和 JAP)〉 ， 对 数据 只 进行 余弦 归 


一 后 的 效果 最 好 ， 分 别 能 达到 2.96% 和 19.97% 的 准确 率 。 显 然 ， 这 里 的 结论 认 
为 ， 匿 名 网 络 能 抵抗 网 站 指纹 攻击 。 
A. Panchenko 等 [27] 在 [26] 的 基础 上 进行 了 改进 。 作 者 认为 ， 面 对 网 站 指纹 ， 


Tor 这 类 匿名 网 络 并 不 像 
等 信息 综合 在 一 起 ， 运 月 


想象 中 那么 安全 。 作 者 率先 将 流量 的 数量 、 时 间 、 方 向 


日 支持 向 量 机 (Support Vector Machine, SVM) 进行 模型 


训练 ， 并 在 [26] 的 数据 集 上 得 到 了 Tor 为 55%、JAP 为 80% 的 准确 率 。 此 外 ， 作 者 
将 此 成 果 应 用 在 开放 环境 COpen-World) 的 场景 中 ， 得 到 了 整体 TPR (True 


Positive Rate) 为 73%、FPR (False Positive Rate) 为 0.05% 的 结果 。 随 后 ， 作 者 对 


网 站 指纹 进行 了 混淆 ， 经 过 混 清 对 抗 后 的 识别 率 分 别 为 Tor 的 3% 和 JAP 的 4%。 
作者 首先 提供 了 在 开放 环境 进行 网 站 指纹 的 方法 ， 这 一 点 十 分 重要 ， 因 为 最 终 
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的 结果 必 将 用 于 实际 的 场景 中 。 如 果 对 实验 场景 加 以 各 种 假设 和 限制 ， 那 么 即 


使 有 较 高 的 实验 效果 和 提升 ， 也 无 法 进行 应 月 

SVM 是 一 种 监督 学 习 方 法 ， 在 数据 分 类 问题 上 有 着 较 高 的 准确 率 。SVM 的 核 
心思 想 是 把 数据 映射 成 高 维 向 量 ， 并 找到 合 
在 网 站 指纹 上 时 ， 需 要 获 


月 ， 只 属于 “纸上谈兵 ”。 


适 的 超 平面 进行 数据 的 分 类 。 运 用 


区 页 面 的 特征 和 原始 数据 ， 并 表示 成 一 个 向 量 。 这 量 


作者 使 用 了 径 向 基 函 数 〈Radial Basis Function, RBF) 作为 核 函 数 ， 并 得 到 最 佳 


的 C 和 y fh. fFF 


收集 的 数据 包括 数据 包 


长 度 、 时 间 、 方 向 、 序 列 信息 、 总 


字 节 数 、 数 量 等 信息 ， 并 获取 Sexually Explicit, Alexa Top Ranked 和 Alexa 
Random 数 据 信息 ， 构 造 开放 环境 的 数据 集 。 如 上 所 述 ， 因 识别 率 的 增高 ， 作 者 


最 终 得 到 关于 Tor 和 JAP 没 有 那么 安全 的 结论 。 


者 通过 填充 虚拟 流量 、 模 拟 访问 等 手段 进行 欺骗 ， 最 终 得 到 较 低 的 识别 率 。 尽 
管 这 个 实验 只 是 概念 证 明 类 的 测试 ， 但 还 是 为 以 后 针对 网 站 指纹 的 对 抗 提供 了 


思路 和 经 验 。 


T. Wang 等 [28] 继 续 在 此 基础 上 进行 改进 。 
计 学 习 方 法 的 不 同 ， 将 以 往 的 网 站 指纹 方法 分 为 基于 非 距 离 的 方法 和 基于 距离 
的 方法 两 种 。[26] 和 [27] 分 别 属于 基于 非 距离 


上 看 ， 作 者 比较 认同 基于 昌 


类 。 与 以 往 工 作 不 


量 两 个 流量 间 的 距离 。OSAD 最 初 | 
删除 、 蔡 换 、 转 换 等 操作 天 


作者 还 进行 了 混淆 对 抗 实验 。 作 


作者 根据 网 站 指纹 过 程 中 使 用 的 统 


的 方法 和 基于 距离 的 方法 。 从 效果 


E 离 的 方法 ， 并 在 本 文中 继续 采用 SVM 方法 进行 分 


同 的 是 ， 作 者 比较 看 重 指 标的 选取 。 作 者 借鉴 了 Cai 等 在 
[29] 中 提出 的 最 佳 弦 对 齐 距离 (Optimal String Alignment Distance, OSAD) 来 测 


DL 距离 (Damerau-Levenshtein distance,DLD) 


取消 了 对 转换 的 限制 。 


= 


忆 此 ， 当 操作 成 本 相 


关注 的 其 他 距离 指标 还 有 不 同 的 传 入 / 传 出 数 
时 间 的 快速 类 LL 距离 (Fast Levenshtein-like Distance) 等 。 作 者 在 数据 采集 上 也 做 
了 优化 ， 从 网 站 的 加 载 上 提取 了 部 分 数据 ， 作 为 特征 。 作 者 以 [29] 中 的 方法 和 
自己 修改 后 的 OSAD、 快 速 类 LL 距离 进行 封闭 环境 (Closed-World) 和 开放 环境 中 


j 来 进行 词 匹 配 ， 关 注 一 个 实例 通过 插入 、 
成 男 一 个 实例 的 操作 数量 ， 以 此 作为 二 者 的 距离 。 


和 OSAD 十 分 相近 ， 主 要 区 别 在 于 
同时 ，DLD 不 会 大 于 OSAD。 作 者 
据 包 代 价 、 不 同 的 传输 代价 、 描 述 


的 对 比 实验 。 从 实验 效果 上 看 ， 作 者 修改 后 的 OSAD 方 法 无 论 是 在 [29] 中 的 数据 


集 上 还 是 在 本 文采 集 的 数 扩 
中 封闭 环境 的 准确 率 为 91%， 开 放 环境 的 准 表 


四 集 上， 准确 率 均 比 [29] 的 方法 和 快速 类 L 距 离 高 。 其 


角 率 超过 90%， 召 回 率 为 96.9%。 作 


者 认为 ， 在 开放 环境 (Alexa Top 1000) 中 的 网 站 指纹 能 达到 高 于 95% 的 召回 率 ， 


Tor 仍 需要 在 保护 ) 


j 户 隐私 方面 进行 改进 。 


紧 接 着 ，Wang 等 [30] 又 提出 了 基于 大 近邻 (k-Nearest Neighbor, k-NN) 分 类 


器 的 网 站 指纹 方法 ， 比 自己 上 一 个 了 
方法 。 相 比 于 其 他 方法 ， 上 NN 有 着 适合 本 了 


[ 作 的 准确 率 更 高 。Kk-NN 是 一 个 有 监督 学 习 
[ 作 的 优势 。 首 先 k-NN 的 训练 离 不 开 
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距离 的 计算 ， 这 与 上 文 所 述 作者 的 思路 和 工作 相 吻合 。 其 次 ， 上 NN 的 训练 时 间 


比较 短 ， 主 要 在 于 计算 两 点 之 间 的 距 
行 分 类 ， 而 分 类 器 仅 需 要 了 解 训练 集 


离 。 男 外 ，K-NN 可 以 准确 对 多 模型 集合 进 
的 一 个 模式 即 可 。 作 者 在 本 次 实验 中 采用 


的 特征 包括 以 下 几 个 类 别 。 其 一 是 通 


特征 ， 包 括 传输 数据 总 大 小 、 传 输 总 时 


间 、 传 入 / 传 出 数据 包 总 数量 等 。 其 二 是 标记 信息 ， 把 数据 包 大 小 在 数据 集 内 的 


数据 包 标 记 为 1， 不 在 的 标记 为 0。 其 
添加 一 个 能 表示 它 之 前 数据 包 数 目的 


三 是 数据 包 序 列 信 息 ， 对 传 出 数据 包 按 序 
功能 和 表示 此 传 出 数据 包 与 前 一 个 传 入 数 


据 包 之 间 的 数据 包 总 数 的 功能 。 其 四 
据 包 的 数量 。 其 五 是 突 发 数据 包 的 信 
各 方向 的 前 20 个 数据 包 的 长 度 作 为 特 
的 100 个 网 站 中 ， 令 客户 端 进行 访问 ， 


Be, 根据 敌 手 了 解 的 信息 的 多 少 来 进 


是 每 30 个 数据 包 的 非 重 又 跨度 中 的 传 出 数 
息 。 最 后 是 初始 数据 包 ， 作 者 将 每 个 序列 
征 之 一 。 作 者 将 这 项 工作 应 用 在 实际 关注 
得 到 了 TPR 为 85%、FPR 为 0.6% 的 结果 。 


此 外 ， 作 者 在 这 里 还 进行 了 基于 Tor 的 防护 测试 ， 作 了 关于 敌手 了 解 的 信息 的 假 


行 下 一 步 的 判定 。 在 业界 ， 本 文 的 主要 贡 


献 还 是 在 于 提出 了 基于 k-NN 的 网 站 指纹 方法 。 
不 过 ， 与 此 同时 ，Juarez 等 [31] 研 究 人 员 对 网 站 指纹 的 有 效 性 产生 了 质疑 。 他 


看 ， 这 些 网 站 指纹 工作 主要 在 封闭 环 


们 认为 这 些 网 站 指纹 方法 只 适用 于 实验 环境 中 ， 并 不 能 在 实际 应 用 中 起 到 效 
果 。 作 者 认为 这 些 网 站 指纹 工作 有 一 些 明 显 的 限制 性 条 件 。 在 客户 端 配置 方 


境 中 进行 ， 研 究 人 员 往 往 只 假设 用 户 访问 


指定 的 k 个 网 站 ， 而 k 在 实验 中 的 取 值 往往 又 很 小 ， 很 难 和 广阔 的 互联 网 相 匹 
配 。 即 使 有 些 研究 工作 [27, 28, 29] 声 称 在 开放 环境 进行 了 测试 ， 也 只 要 求 用 户 访 


问 指定 的 k 个 网 站 之 外 的 网 站 。 在 浏览 器 行为 方面 ， 一 些 工作 给 定 用 户 访问 行 


为 ， 例 如 不 停 打 开 不 同 页 面 ， 但 只 打 


开 一 个 选项 卡 ， 这 和 实际 用 户 的 使 用 大 相 


径 许 ， 获 取 到 的 数据 也 不 符合 实际 情况 。 此 外 ， 在 [29] 中 ， 作 者 因 实 验 需要 ， 搭 


这 个 被 证 实在 实际 情况 下 是 十 分 困难 
量 中 区 分 出 所 需 流 量 ， 而 一 般 计 算 机 
识别 出 特定 的 流量 。 关 于 复 现 性 ， 研 


建 了 许多 网 站 , 但 这 些 网 站 使 用 的 是 同一 个 网 站 模板 ， 这 令 实验 的 可 信和 度 大 打折 
扣 。 在 敌手 模型 方面 ， 研 究 人 员 往 往 假 设 敌 手 能 检测 出 不 同 网 站 加 载 的 始终 ， 而 


的 。 研 究 人 员 也 往往 假设 敌手 能 从 背景 流 
设备 中 使 用 网 络 的 软件 有 很 多 ， 很 难 从 中 
究 人 员 总 假设 敌手 可 以 在 被 监视 者 一 样 的 


环境 中 训练 模型 ， 这 一 点 在 实验 中 比较 常见 ， 但 在 实际 场景 中 几乎 是 不 可 能 
的 。 作 者 并 非 口 说 无 赁 。 针 对 上 述 假设 ， 作 者 使 用 [27, 28, 29] 中 的 方法 进行 了 实 
验 。 作 者 对 Alexa Top 100、Top 1000、Top 10000 的 网 站 的 主页 、 其 他 页 面 和 不 


在 此 范围 内 的 混淆 网 站 进行 数据 抓 取 


， 构 造 了 新 的 数据 集 。 经 过 实验 验证 ， 这 


些 方法 均 达 不 到 声称 的 准确 率 。 在 综合 训练 时 间 等 代价 后 ， 作 者 认为 ， 在 实际 
应 用 中 ， 上 述 的 一 些 假设 仍 是 网 站 指纹 需要 面 对 的 问题 。 
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2016 年 Panchenko 等 [32] 提 出 了 


种 新 的 网 站 指纹 攻击 方法 (简称 


CUMUL) 。CUMUL 基 于 一 种 “微妙 ”的 方法 ， 将 网 络 轨迹 映射 成 一 个 类 表示 。 


作者 通过 生成 网 络 轨迹 追踪 的 累积 行为 表示 来 抽象 


网 页 的 加 载 过 程 ， 并 由 此 为 


分 类 器 提取 特征 。 这 样 隐 含 地 覆盖 了 其 他 分 类 器 需要 考虑 的 流量 特征 ， 例 如 分 


组 排序 或 突 发 行为 。 
时 间 的 差异 。 这 种 方 


为 了 在 尽 可 能 接近 实 


成 ， 是 以 往 工作 中 数据 集 的 数 倍 之 大 。 在 构建 数据 集 的 考虑 方面 ， 作 者 并 不 局 


通过 设计 ， 作 者 的 分 类 器 可 以 抵御 带宽 、 拥 塞 和 网 页 加 载 
法 在 分 类 准确 性 方面 优 于 已 有 的 分 类 器 ， 同 时 效率 更 高 。 


际 的 情况 下 评估 网 站 指纹 攻击 的 有 效 性 ， 作 者 构建 了 一 个 
本 领域 较 有 代表 性 的 数据 集 ， 由 包括 主页 和 其 他 页 面 在 内 的 30 万 个 网 站 数据 构 


限于 Alexa 数 据 ， 而 是 综合 考虑 了 各 种 互联 网 流量 ， 包 括 社交 网 站 、 新 闻 网 站 、 


BT 种 子 网 站 、 知 识 网 站 、 娱 乐 网 站 、 博 客 网 站 、 非 美语 语系 网 站 、 在 线 数据 库 


和 成 人 网 站 等 。CUMUL 通 过 添加 传 出 数据 包 分 组 的 长 度 并 减 去 传 入 数据 包 分 


组 的 长 度 来 计算 累积 和 ， 连 同 总 的 传 入 和 传 H 


特征 。 最 终 ， 作 者 | 


]104 个 特 和 


的 数据 包 和 字 节 数 ， 作 为 SVM 的 


明 ， 作 者 的 方法 具有 90%-93% 的 成 功率 。 
2018 年 ， Rimmer 等 [33] 结 合 深度 学 习 的 方法 , 提出 了 网 站 指纹 新 的 思路 。 作 者 


认为 传统 统计 学 习 方 


E 来 表示 一 个 流量 实例 。 在 数据 集 上 的 实验 结果 表 


法 注重 于 特征 选择 ， 从 而 对 流量 的 特有 


且 大 都 只 在 封闭 环境 


下 进行 测试 ， 在 实际 使 用 中 仍 有 局 限 性 。 为 此 ， 作 者 提出 


FE 变化 较为 敏感 ， 而 


基于 深度 学 习 的 自动 化 网 站 指纹 方法 ， 分 别 采用 堆栈 去 品 上 自 编 码 占 (Stacked 


Denoising Autoencoder，SDAE)、 卷 积 神经 网 络 (Convolutional Neural Network, 
CNN) 和 长 短期 记忆 (Long-Short Term Memory, LSTM) 网 络 ， 通 过 学 习 原 始 


一 系列 卷 积 层 构 成 。 卷 积 层 也 用 于 特 租 


以 检索 最 重要 的 特征 


自 编码 器 (Autoencoder, AE) 是 一 种 前 馈 网 络 ， 专 门 用 
征 学 习 。 将 多 个 AE 堆 积 形成 深层 模型 ， 


流量 进行 特征 提取 构建 指纹 ， 进 而 对 网 站 进行 识别 。 


于 通过 降 维 来 进行 特 


可 以 对 输入 数据 的 最 显 着 特征 进行 分 层 
提取 ， 并 根据 派生 特征 进行 分 类 ， 使 得 SDAE 模 型 能 够 用 于 网 站 指纹 。CNN 由 
F 提 取 ， 从 第 一 层 的 低级 特征 开始 ， 逐 级 
抽象 。 卷 积 层 学 习 多 种 过 滤器 ， 这 些 过 滤器 可 以 显示 出 输入 数据 中 包含 特定 特 
征 的 区 域 ， 然 后 对 这 些 输入 实例 进行 降 采 样 ， 并 保留 特殊 区 域 。 这 样 ，CNN 可 


来 进行 分 类 。SDAE 需 要 逐 块 进行 预 训 


| 练 ， 而 CNN 不 需要 


大 量 的 预 处 理 。LSTM 分 类 器 是 特殊 类 型 的 循环 神经 网 络 (Recurrent Neural 


Network, RNN) ， 


赖 关 系 ， 使 分 类 器 能 
时 间 序 列 ， 这 些 动态 


收集 了 360 万 个 对 Alexa Top 1200 的 访问 数据 ， 
据 集 CW100、CW200、CW500 和 CW900， 分 别 包 含 了 筛选 后 的 100 个 、200 个 、 


并 经 过 筛选 ， 


有 增强 记忆 能 力 。LSTM 的 设计 允许 学 习 数据 中 的 长 期 依 
网 解释 时 间 序 列 。 此 处 输入 的 流量 轨迹 基本 上 是 Tor 单 元 的 
时 间 序 列 很 可 能 包含 网 站 指纹 。 作 者 通过 Tor 和 Tor 浏 览 器 


形成 了 4 个 主要 的 数 


500 个 和 900 个 网 站 的 各 2500 次 访问 数据 ， 作 为 封闭 环境 的 训练 集 和 测试 集 。 作 
者 对 Alexa Top 400, 000 的 网 站 进行 访问 ， 收 集 400, 000 条 数据 ， 对 CW200 中 的 网 


站 分 


别 进行 了 2000 次 访问 ， 收 集 400, 000 条 数据 ， 这 800, 000 条 数据 构成 开放 环 


境 的 数据 集 。 测 试 结果 表明 ， 作 者 的 方法 能 达到 94%-96% 的 准确 率 。 


3. 总 结 与 展望 


本 文 从 匿名 性 的 提出 和 匿名 网 络 的 发 展开 始 ， 综 述 了 在 这 个 过 程 中 人 工 智能 方 


法 在 流量 分 析 和 网 站 指纹 的 应 用 。 从 [26] 开 始 ， 网 站 指纹 攻击 的 研究 便 打开 了 大 


门 ， 而 从 各 类 实验 也 能 看 出 ， 我 们 一 向 认为 安全 的 Tor 等 匿名 网 络 也 不 是 那么 安 
全 。 世 界 上 没有 绝对 的 安全 ， 使 用 Tor 也 不 能 带 来 完全 的 匿名 。 随 着 时 间 和 技术 
的 发 展 ， 我 认为 针对 深度 学 习 的 对 抗 也 终 将 运用 于 Tor 网 络 中 。 攻 防 是 场 长 期 的 
博弈 战 ， 此 起 彼 伏 ， 此 消 彼 长 。 而 在 攻防 的 对 抗 中 ， 技 术 将 始终 是 核心 ， 并 得 
以 不 断 升 华 。 
参考 文献 


. Chaum, D.: Untraceable Electronic Mail, Return Addresses, and Digital Pseudonyms, In: 


Communications of the ACM, Vol. 24, No. 2, pp. 84-88 (1981). 

Pfitzmann A, Waidner M.: Networks without user observability. Computers & Security, 
6(2), 158-166 (1985). 

Pfitzmann A, Hansen M.: A terminology for talking about privacy by data minimization: 
Anonymity, Unlinkability, Undetectability, Unobservability, Pseudonymity, and Identity 
Management, 34 (2010). 

Reiter, Michael K, and A. D. Rubin.: Crowds: Anonymity for Web Transactions. In: ACM 
Transactions on Information & System Security1.1, pp. 66-92 (1998). 

Berthold, Oliver, Pfitzmann, et al.: The disadvantages of free MIX routes and how to 
overcome them. In: International Workshop on Designing Privacy Enhancing Technologies 
Design Issues in Anonymity & Unobservability, 63(s164), pp. 30-45 (2001). 

Diaz C., Seys S., Claessens J., et al.: Towards Measuring Anonymity. In: International 
Conference on Privacy Enhancing Technologies, pp. 54-68. Springer-Verlag (2002). 
Edman M, Sivrikaya F, Yener B.: A Combinatorial Approach to Measuring Anonymity. 
Intelligence and Security Informatics, IEEE, 356-363 (2007). 

Bhargava M, Palamidessi C.: Probabilistic Anonymity. CONCUR 2005 — Concurrency 
Theory. Springer Berlin Heidelberg (2005). 


10. 


11. 


12. 


13. 


14. 
15. 


16. 


17. 


18. 


19. 


20. 


21. 


22; 


23. 


24. 


25. 


Halpern J Y, O'Neill K R.: Anonymity and information hiding in multiagent systems. IOS 
Press (2005). 

Backes M, Kate A, Meiser S, et al.: (Nothing else) MATor(s): Monitoring the Anonymity 
of Tor's Path Selection. In: ACM SIGSAC Conference on Computer & Communications 
Security, pp. 513-524. ACM (2014). 

Zhi Wang, Jinli Zhang, Qixu Liu, Xiang Cui.: Practical Metrics for Evaluating Anonymous 
Networks, In: 1st International Conference on Science of Cyber Security, Springer (2018) 
Mistry, S., Raman, B.: Quantifying Traffic Analysis of Encrypted Web-Browsing, project 
paper, University of Berkeley (1998). 

Cheng H., Avnur R.: Traffic Analysis of SSL Encrypted Web Browsing, (1998). 

R. Fielding, J. Gettys, et al.: RFC 2616 Hypertext Transfer Protocol ~ HTTP/1.1, (1999). 
Raymond, Jean François.: Traffic Analysis: Protocols, Attacks, Design Issues, and Open 
Problems. In: International workshop on Designing privacy enhancing technologies: design 
issues in anonymity and unobservability Springer-Verlag New York, Inc. pp. 10-29, (2001). 
Bissias, G. D., Liberatore, M., Jensen, D., & Levine, B. N.: Privacy vulnerabilities in 
encrypted HTTP streams. In: International Conference on Privacy Enhancing Technologies, 
Springer-Verlag, Vol.3856, pp.1-11, (2005). 

Hintz, A.: Fingerprinting Websites Using Traffic Analysis. In: International Conference on 
Privacy Enhancing Technologies. Springer-Verlag. Vol.2482, pp.171-178, (2002). 

Q. Sun, Simon, Daniel, R., Wang, et al.: Statistical Identification of Encrypted Web 
Browsing Traffic. In: IEEE Symposium on Security and Privacy, pp.19-30, (2002). 
Dingledine R., Mathewson N., Syverson P.: Tor: the second-generation onion router. Journal 
of the Franklin Institute, 239(2), pp. 135-139 (2004). 

JAP — ANONYMITY & PRIVACY, https://anon.inf.tu-dresden.de/index_en.html. 

Tor Metrics Portal, https://metrics.torproject.org. 

Murdoch, Steven J., and G. Danezis.: Low-Cost Traffic Analysis of Tor. In: IEEE 
Symposium on Security & Privacy IEEE, pp.183-195, (2005). 

Abbott, Timothy G., et al.: Browser-Based Attacks on Tor. In: Privacy Enhancing 
Technologies, International Symposium, Pet 2007 Ottawa, Canada, Revised Selected Papers 
DBLP, pp.184-199, (2007). 

Bauer, Kevin, et al.: Low-resource routing attacks against tor. In: ACM Workshop on 
Privacy in the Electronic Society, Wpes 2007, October DBLP, pp. 11-20, (2007). 
Liberatore, M., & Levine, B. N.: Inferring the source of encrypted HTTP connections. In: 


ACM Conference on Computer and Communications Security, pp.255-263, (2006). 


26. 


27. 


28. 


29. 


30. 


31. 


32. 


GEE 


Herrmann, D., Wendolsky, R., and Federrath, H.: Website Fingerprinting: Attacking 
Popular Privacy Enhancing Technologies with the Multinomial Naive-Bayes Classifier. In: 
CCS 2009, Cloud Computing Security Workshop, pp.31-42, (2009). 

Panchenko, Andriy, et al.: Website Fingerprinting in Onion Routing Based Anonymization 
Networks, In: ACM Workshop on Privacy in the Electronic Society ACM, pp. 103-114, 
(2011). 

T. Wang, and I. Goldberg.: Improved website fingerprinting on Tor. In: ACM Workshop on 
Workshop on Privacy in the Electronic Society ACM, pp. 201-212, (2013). 

Cai X, Zhang X C, Joshi B, et al.: Touching from a Distance: Website Fingerprinting Attacks 
and Defenses, In: ACM Conference on Computer and Communications Security, ACM, pp. 
605-616, (2012). 

T. Wang, X. Cai, R. Nithyanand, R. Johnson, and I. Goldberg.: Effective Attacks and 
Provable Defenses for Website Fingerprinting, In: USENIX Security Symposium. USENIX 
Association, pp. 143-157, (2014). 

Juarez, Marc, et al.: A Critical Evaluation of Website Fingerprinting Attacks, In: ACM 
SIGSAC Conference on Computer and Communications Security ACM, pp. 263-274, 
(2014). 

A. Panchenko, F. Lanze, A. Zinnen, M. Henze, J. Pennekamp, K.Wehrle, T. Engel.: Website 
fingerprinting at internet scale, In: Network and Distributed System Security Symposium 
(NDSS). IEEE Computer Society, pp. 1-15, (2016). 

Rimmer, Vera, et al.: Automated Website Fingerprinting through Deep Learning. In: 


Network and Distributed System Security Symposium, (2018). 


